产生表现力和上下文适当的韵律仍然是现代文本到语音(TTS)系统的挑战。对于长,多句的输入,这一点尤其明显。在本文中,我们检查了基于变压器的快速语音系统的简单扩展,目的是改善多句子TT的韵律。我们发现,漫长的上下文,强大的文本功能以及对多演讲者数据的培训都改善了韵律。更有趣的是,它们产生协同作用。长篇小说席卷了韵律,改善了连贯性,并发挥了变形金刚的优势。来自强大的语言模型(例如BERT)的微调单词级功能似乎从更多培训数据中获利,在多演讲者设置中很容易获得。我们调查有关暂停和起搏的客观指标,并对语音自然进行彻底的主观评估。我们的主要系统结合了所有扩展,取得了始终如一的良好结果,包括对所有竞争对手的言语自然性的显着改善。
translated by 谷歌翻译
Current deep learning classifiers, carry out supervised learning and store class discriminatory information in a set of shared network weights. These weights cannot be easily altered to incrementally learn additional classes, since the classification weights all require retraining to prevent old class information from being lost and also require the previous training data to be present. We present a novel two stage architecture which couples visual feature learning with probabilistic models to represent each class in the form of a Gaussian Mixture Model. By using these independent class representations within our classifier, we outperform a benchmark of an equivalent network with a Softmax head, obtaining increased accuracy for sample sizes smaller than 12 and increased weighted F1 score for 3 imbalanced class profiles in that sample range. When learning new classes our classifier exhibits no catastrophic forgetting issues and only requires the new classes' training images to be present. This enables a database of growing classes over time which can be visually indexed and reasoned over.
translated by 谷歌翻译
本文探讨了在深度参与者批评的增强学习模型中同时学习价值功能和政策的问题。我们发现,由于这两个任务之间的噪声水平差异差异,共同学习这些功能的共同实践是亚最佳选择。取而代之的是,我们表明独立学习这些任务,但是由于蒸馏阶段有限,可以显着提高性能。此外,我们发现可以使用较低的\ textIt {方差}返回估计值来降低策略梯度噪声水平。鉴于,值学习噪声水平降低了较低的\ textit {bias}估计值。这些见解共同为近端策略优化的扩展提供了信息,我们称为\ textit {dual Network Archituction}(DNA),这极大地超过了其前身。DNA还超过了受欢迎的彩虹DQN算法在测试的五个环境中的四个环境中的性能,即使在更困难的随机控制设置下也是如此。
translated by 谷歌翻译
从fMRI大脑记录中重建自然视频非常具有挑战性,这两个主要原因是:(i)由于fMRI数据获取很困难,我们只有有限的监督样本,这还不足以覆盖自然视频的巨大空间; (ii)fMRI记录的时间分辨率远低于自然视频的帧速率。在本文中,我们提出了一种自我监督的自然电影重建方法。通过对编码编码自然视频的编码使用周期矛盾,我们可以:(i)利用培训视频的完整帧速率,而不仅仅限于与fMRI录音相对应的剪辑; (ii)利用受试者在fMRI机器内从未见过的大量外部自然视频。这些使适用的培训数据通过几个数量级增加,将自然视频先验引入解码网络以及时间连贯性。我们的方法大大优于竞争方法,因为这些方法仅在有限的监督数据上训练。我们进一步介绍了自然视频的新的简单暂时性先验,当将其进一步折叠到我们的fMRI解码器中时 - 允许我们在原始fMRI样本率的X8的较高框架速率(HFR)中重建视频。
translated by 谷歌翻译